iT邦幫忙

2023 iThome 鐵人賽

DAY 25
0

到目前為止我們算是把 Binary Classification 中和 MLOps 有關的部分講告一個段落了,昨天做後講到關於 Computer Vision 和 Natural Language,所以在進入整理之前,我們三天的時間來講一下 Unstructured Data

非結構化數據在當今的數據世界中佔有越來越重要的地位。不外乎三個格式, Image, Audio 和 Test,當然 Unboding Sequence 也算是一種非結構化數據,在非結構化數據常會有以下的問題

  1. 數據量龐大,需要更多的存儲空間,實驗的機器成本也會較高
  2. 多樣性,很難有一個方法同時處理一個類別,像是圖像的方法就不適用 文字或是音訊
  3. 質量不一,通常結構化數據很容易透過投影等等方式來提高數據質量,但是非結構化數據需要提供更多的專業知識
  4. 機器需求,非結構化數據常用 GPU 處理,甚至 CPU 處理也會需要對資源有嚴格的監控,Request 一多就容易出現錯誤

依照我們先前提到的 MLOps 架構下有幾個項目會需要做些更動

  1. 資料 ETL 會從一連串的 SQL Query 變成更多需要複雜的邏輯來處理,如果少了 ETL pipeline versioning 工具的協助,更容易使得各種的 Preprocessing 變得複雜
  2. Model 會更講掉 Transform, Encoding 的部分,甚至變成用 Ensemble 來做多層的包裝
  3. 常會處理一些分類問題以外的問題,這類不同的 Metrics 較難去做一定的整合,舉例來說用 RMSP 來衡量的 Model 同樣的概念在不同場景下的計算會有很大的區別

上面都是些很概念性的描述,但我認為在做 Unstructure Data 的
Modeling 時,不要太快地去享用一套方法套用在所有模型上,畢竟模型的變化差異很大,而是先專注在完善特定的應用,舉最近的 LLM 為例子,就發展相對應的 LLMOps,這個我們在後天會稍微提到

另外在 Unstructured Data 中,由於計算量變大了,更會去注重 Inference 和 Training 的計算效能,因此接下來會來講一下 Inference Server 這一塊


上一篇
Day 24 Explain Ai
下一篇
Day 26 Inference Server
系列文
踏上 MLOps 之路:從 Applied Data Scientist 到 MLOps 的轉變與建構30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言